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动作 识别 中 基于 深度 神经 网 络 和 GA 合并 算法 的 分 类 决策 方法 
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摘 An oe a a tat me 

和 遗传 算法 (GA) 合 并 算法 的 非 线性 分 类 决策 方法 。 首 先 ， 提 出 的 合并 算法 在 整个 训练 集合 上 对 特征 提取 器 进行 组 合 ， 

进而 组 合成 不 同 的 两 个 独立 网 络 ; 再 利用 DNN 对 两 个 独立 网 络 进行 初始 化 ， 进 一 步 利 用 GA 对 两 个 网 络 进行 合并 。 
然后 将 网 络 的 偏差 和 权重 表示 为 每 层 网 络 间 的 一 个 答 阵 ; 最 后 ， 利 用 DNN 对 网 络 的 偏差 和 权重 进行 训练 ， 并 在 合并 
过 程 中 将 算 阵 中 的 每 一 行当 作 一 个 染色 体 。 实 验 采 用 了 标准 MNIST 数据 集 对 提出 算法 的 性 能 进行 评估 。 评 估 结 果 显 

示 实 验 过 程 中 的 交叉 和 突变 操作 增加 了 神经 元 节点 ， 提 高 了 识别 性 能 ， 并 且 弱 化 了 不 相关 和 相关 神经 元 节点 。 因 此 ， 

提出 算法 的 错误 率 更 低 ， 网 络 性 能 更 优异 。 
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Classification decision method based on depth neural network and 
GA merging algorithm in motion recognition 


Zhao Xuezhang!, Xi Yunjiang’, Huang Xiongbo! 
(1. Foshan Polytechnic, Foshan Guangdong 528137, China; 2. South China University of Technology, Guangzhou 510 510641, 
China) 


Abstract: Aiming at the problems and shortcomings of traditional methods in human motion recognition in classification 
decision, a novel nonlinear classification decision method based on deep neural network (DNN) and genetic algorithm (GA) 
merge algorithm is proposed. First, the proposed merging algorithm combines the feature extractors over the entire training set 
and combines them into two different independent networks. Then use DNN to initialize two independent networks and further 
Use GA to merge the two networks. Then the deviation and weight of the network are expressed as a matrix between each layer 
of the network. Finally, use DNN to train the bias and weight of the network, and each row in the matrix is treated as a 
chromosome during the merge process. The experiment uses the standard MNIST data set to evaluate the performance of the 
proposed algorithm. The evaluation results showed that the crossover and mutation operations during the experiment increased 
the neuron nodes, improved the recognition performance, and weakened the irrelevant and related neuronal nodes. Therefore, 
the proposed algorithm has a lower error rate and better network performance. 
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0 ”引言 识别 、 函 数 映 射 等 智能 功能 。 反 向 传播 是 一 种 典型 的 用 于 深度 
神经 网 络 (deep neural network，DNN) 的 学 习 方 法 ， 通 常情 况 下 
模式 识别 研究 是 机 器 智能 研究 领域 的 一 个 重要 组 成 部 分 ， 将 这 种 算法 与 一 种 优化 算法 进行 结合 使 用 ， 比 如 梯度 下 降 算法 

是 一 项 基本 的 智能 活动 。 机 器 智能 研究 有 两 个 主要 的 起 点 ， 一 乌 。 
个 是 通过 人 类 或 其 他 生物 的 自然 智能 建立 数学 模型 ， 其 次 是 使 当前 的 人 体 动作 识别 主要 依赖 于 传感器 申 ， 通 过 在 人 体 各 
用 各 种 数学 工具 来 建立 电脑 模型 。 深 度 神经 网 络 已 经 在 语音 识 。 ”个 部 位 放置 多 个 传感器 ， 如 利用 智能 手 环 等 传感器 。 传 统 的 机 
别 ， 图 像 识 别 等 领域 取得 了 空前 的 成 功 趾 。 神 经 网 络 系统 是 | # 学 习 方 法 ， 如 支持 向 量 机 (support vector machine，SVM) 、 
大 量 的 神经 细胞 (神经 元 ) 复杂 的 系统 组 成 的 ， 人 们 通过 网 络 贝 叶 斯 网 络 、 时 域 频 域 分 析 等 机 器 学 习 方法 也 是 研究 的 重点 。 
建立 数学 模型 和 算法 ， 试 图 使 其 能 够 实现 诸如 基于 数据 的 模式 。 ”文献 [各 用 到 了 卷 积 神经 网 络 , 但 依然 需要 人 为 的 提取 动作 特征 
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文献 [5] 
学 习 深 度 不 够 ， 


为 了 提取 更 高 维度 的 特 和 


也 用 到 了 卷 积 神经 网 络 , 但 是 


(genetic algorithm，GA) 的 


算法 。 
到 提高 分 类 精度 ， 


神经 网 络 对 图 像 进行 处 理 之 
区 别 于 文献 [6]， 本 文 提出 的 算法 将 GA 作为 神经 网 络 中 的 一 个 


将 GA 


作为 图 


于 只 使 用 了 


无 法 提取 更 高 维度 的 特征 。 基 于 目前 的 研究 ， 
F 来 提升 分 类 效果 ， 本 文 根 据 遗 传 算法 


启发 ， 提 出 ] 
之 前 ， 在 文献 [6] 中 提出 了 一 种 


种 用 于 深度 学 习 的 合 
结合 GA 的 神经 网 络 方 


特征 提取 器 ， 利 | 


个 训练 数据 集合 ， 然 
在 第 二 阶段 ， 利 用 


的 算法 利 ) 


将 训 


法 | 


利用 
练 之 后 ， 利 用 


网 络 中 已 经 


于 对 整个 数据 进行 预 
和 附加 数据 构成 。 本 文 提 
已 经 存在 的 网 络 信息 构建 新 
GA 将 训练 结果 和 


后 是 


像 分 割 的 一 个 后 处 理 程序 ， 
和 利用 GA 进行 图 像 分 割 。 


j 这 个 特征 提取 器 对 初始 权重 进行 最 优化 。 

本 文 算法 的 主要 思路 是 利用 GA 选取 更 多 的 显 性 特征 ， 其 
两 个 阶段 构成 。 在 第 一 阶段 ， 将 整个 训练 数据 集合 划分 成 两 
后 利用 DNN 对 这 些 数 据 集合 进行 训 
GA 将 两 个 训练 所 得 的 网 络 进行 合并 ， 
存在 的 训练 信息 , 即 权重 和 偏差 ,因此 ， 
练 数据 或 者 类 别 添加 到 网 络 中 , 但 是 , 初始 版 本 
训练 ， 整 个 数据 集合 是 
的 算法 仅 通过 预先 训练 附加 数据 
网 络 ,对 附加 数据 进行 预先 训 


练 。 
提出 


的 DNN 算 
初始 数据 


己 经 存在 的 网 络 进行 合并 。 也 


就 是 说 ,本 文 提出 的 算法 将 可 以 给 出 一 种 新 的 重新 训练 的 方法 。 


1 ”提出 算法 的 GA 处 理 过 程 


利 
案 , GA 的 提出 是 受到 
交叉 三 种 算 子 ["”31。 图 


本 文 提出 的 算法 是 一 种 基于 GA 的 


j 进 化 准则 解决 各 种 问题 。GA 为 最 


型 方法 ， 这 种 新 方法 
优化 问题 生成 了 解决 方 


自然 进 


化 方 


法 的 


启发 , 包括 遗传 、 变 异 和 


1 中 给 出 了 一 个 GA 过 程 的 简单 模型 。 


1 GA 过 程 的 简单 模型 


本 文 利用 这 个 方 流 


选取 显 性 特征 ， 


a) 将 网 络 中 每 层 之 间 的 权重 外 


遗传 给 下 一 代 。 


体 步骤 如 下 : 


E 阵 和 偏差 向 量 作 为 染色 体 ， 


层 卷 积 层 ， 


Ch 
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b) 通 过 交叉 和 变异 算 子 的 


母 本 为 父母 。 
oO) 在 众多 子 代 中 ， 根 据 对 网 络 的 适应 度 ， 选 取 两 个 子 代 作 


为 父 本 和 母 本 作为 父母 ,， 
神经 网 络 中 每 层 之 间 的 权重 和 偏见 组 成 的 矩阵 ， 这 些 和 矩阵 的 


结合 获取 新 的 下 一 代 , 初始 父 本 、 


然后 


重复 执行 整个 过 程 ;然后 构建 


第 一 列 为 偏差 向 量 ， 


剩余 列 构成 的 矩阵 为 权重 矩阵 。 


过 程 如 图 


2 所 示 , 本 文 提 出 的 算法 将 这 个 矩阵 的 每 一 行 作为 一 个 染色 体 。 


将 从 父母 | 和 父母 ,中 随机 选取 的 行进 
其 添加 到 随机 矩阵 中 以 完成 交叉 过 程 ， 随 机 和 矩阵 的 值 依赖 于 交 


又 概率 (交叉 率 )。 在 这 个 过 程 中 ， 


父母 1 (网 络 1) 


帆 


随机 矩阵 


图 2 GA 过 程 的 矩阵 化 模型 


J 了 复制， 然后 将 


—、 


将 父母 ,和 父母 ,的 复制 比 


例 定义 为 分 数 比 。 交 叉 步 又 结束 之 后 ， 按 照 变异 概率 P(712) 进 


行 变异 操作 。 在 本 文 提出 的 算法 


Ph， 变 异 过 程 是 通过 将 染色 体 


为 了 确定 下 一 代 的 父母 ， 需 要 完成 对 后 代 的 评估 。 为 了 达 


的 ， 本 文 准备 了 验证 集合 ， 验 证 集合 是 训练 集合 的 


的 一 部 分 设置 为 零 而 完成 的 。 
到 评估 的 
一 部 分 ， 利 | 


验证 集合 可 以 获取 每 个 后 代 的 错误 率 ， 然 后 选取 


两 个 具有 最 低 错 误 率 的 后 代 作为 下 一 代 的 父母 .在 这 个 步 又 中 ， 


利用 


所 有 的 代 中 或 者 最 后 一 代 中 选取 
的 伪 


GA 过 程 


目标 函数 寻找 后 代 , 寻找 的 后 代 可 以 最 小 化 0-1 损失 函数 。 
重复 执行 一 系列 的 GA 过 程 直到 预先 确定 的 代数 ， 最 后 在 


有 最 低 错误 率 的 一 个 后 代 。 


代码 如 算法 1 所 述 : 


算法 1 


GA 过 程 伪 代码 


随机 : 利 


十 进 小 歼 生 成 器 随机 生成 0 


for 所 有 的 代数 do 
for 所 有 的 后 代数 do 
for 层 1 的 所 有 个 数 do 
for 所 有 后 代 的 权重 矩阵 行 do 
if 随机 > 交叉 率 then 


到 1 之 间 的 数 


后 代 权 重 矩 阵 行 < 二 随机 和 矩阵 行 


else 


if 随机 > 分 数 比 then 
后 代 权重 矩阵 行 < 一 父 


else 


母 , 权重 矩阵 行 
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后 代 权重 矩阵 行 < 一 父母 ,权重 矩阵 行 
endif 
endif 
for 所 有 后 代 权 重 矩 阵列 do 
二 随机 《突变 率 then 
后 代 权 重 矩 阵 元 素 =0 
end 让 
end for 
end for 
end for 
利用 验证 集合 对 每 个 后 代 进 行 正 反 馈 神 经 网 络 测试 
end for 
下 一 代 父母 《一 选取 两 个 具有 最 低 错 误 率 的 后 代 
end for 
在 所 有 的 代 或 者 最 后 一 代 中 选取 一 个 具有 最 低 错误 率 的 后 代 


2 


2.1 


深度 神经 网 络 


多 层 感 知 器 模型 


采用 不 同 的 数学 模 


型 就 能 得 到 不 同 的 神经 网 络 方法 ， 其 


最 有 


是 : 


模型 


=- 龙 


, 它 有 具有 从 训练 数据 


ES 


图 3 


为 一 个 简单 的 多 


Xl1 


神经 网 络 是 


每 个 
到 指 
非 线 
2.2 


3 就 是 一 个 深度 


Layer) 就 是 直 


定 区 间 ， 
性 的 特征 。 
深度 神经 网 络 模型 


个 网 络 结构 ， 它 
神经 元 有 一 个 激活 函数 ,凭借 该 函数 , 能够 将 输入 数据 压缩 
且 让 原本 线性 的 特征 组 合 通过 激活 函数 表现 


中 学 习 任意 复杂 的 非 线 性 映射 的 能 


层 感 知 器 模型 。 


¥ 


| 


3 Xn 


图 3 多 层 感知 器 模型 


X2 


一 个 个 神经 元 链接 组 成 


深度 神经 网 络 


输入 层 、 隐 藏 层 和 输出 层 


部 分 构成 。 


经 网 络 模 型 的 例子 。 顾 名 
接 获取 输入 的 数据 ， 其 中 每 个 单元 对 应 一 个 特征 


思 义 ， 输 入 层 (nput 


中 


影响 力 的 模型 就 是 多 层 感知 器 (multi-layerperceptron,MLP) 


o 


出 


图 


pe 
这 十 


Layer)， 收 集 来 


为 输 
中 

的 输 
个 包 


个 可 以 ) 


于 训 


练 的 显 性 特征 。 


中 


自 上 


层 输入 


入 ， 带 入 激活 函数 


L， 


间 部 分 是 隐藏 层 (Hidden 
层 的 全 部 特征 进行 线性 组 合 后 作 


FP， 得 到 一 个 输出 值 。 在 深层 神经 网 络 


隐藏 层 可 以 有 多 个 。 


含 两 个 隐 


出 为 函数 的 输入 ， 带 入 本 层 的 激活 函数 中 。 


， 每 个 隐藏 层 会 以 育 
图 


并 


i 层 的 深度 神经 网 络 模型 。 


个 隐藏 层 
4 模型 是 一 


输入 层 


合并 算法 的 分 类 决策 方法 


图 4 包含 两 个 隐 层 的 深度 神经 网 络 模型 


层 (output layer) 所 做 的 工作 


其 实 和 隐藏 层 很 相似 , 把 上 


层 的 输出 进行 线性 组 合 后 ， 作 为 输入 ， 带 入 输出 
便 可 以 得 到 这 个 神经 元 的 输出 。 如 图 
3 个 输出 单元 ， 每 个 输出 单元 用 于 二 分 类 ， 


慨 的 激活 函 
到 3 中 对 应 的 都 有 
也 就 是 预测 0 或 1， 


代表 一 个 预测 值 。 


深度 神经 网 络 的 另 一 个 常见 的 应 用 是 特征 提取 .他 们 的 实 


现 思路 非常 简单 。 例 如 可 以 用 
(restricted Boltzmann machine， 


取 音 乐 的 特征 。 


深度 神经 网 络 的 RB 


慨 登 的 多 个 受 限 


RBMJ) 四 组 成 深度 网 络 结构 来 提 


玻 尔 兹 曼 机 


M 层 构 成 如 图 


5 所 示 。 


图 5 深度 神经 网 络 的 RBM 层 


邹 * 


最 近 , 一 些 研 究 者 对 DNN 进行 


J 看 10314] 但 是 ， 大 多 数 


九 


研究 者 提出 的 方法 主要 专注 于 提升 
本 文 的 研究 
算法 的 
训练 附加 数据 或 者 类 别 的 方法 0517。 


3 ”合并 算法 

合并 算法 的 流程 
本 文 提出 的 算法 | 
网 络 各 自 的 DNN 对 其 进行 初始 化 ; 


3.1 


这 两 个 网 络 进行 合并 。 将 DNN 的 输入 数据 划分 为 两 个 数据 集 


合 : 用 于 对 网 络 进行 训练 的 集合 (Sy 


在 测试 阶段 利用 测试 集合 对 网 络 的 怕 


的 是 提高 DNN 的 识别 性 能 


个 步骤 构成 ， 第 一 个 步 又: 利用 两 个 


单个 完全 训练 集合 的 识别 率 。 


标 是 对 一 种 新 颖 的 合并 算法 进行 评估 ， 本 文 提 出 


给 出 一 种 新 的 用 于 重新 


第 二 个 步骤 : 利 


一 


GA 对 


练 ) 以 及 测试 集合 (9 测试) 
E 能 进行 评估 。 十 分 关键 的 


是 不 能 利用 Syyyx 对 网 络 进行 训练。 


3 训练 划分 为 两 个 子 集合 (3 训练 1 和 咏 训 练 ?)。 为 了 对 后 代 的 


在 本 文 提出 的 


法 中 ， 将 


生 能 
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系 如 下 所 述 : 


进行 评估 还 需要 一 个 验证 集合 ( Sy 


Sy NS 9 


Sy NS =$ 


Sygi Nm = pS Nmt = 


Sir Noma =$ 


ChinaXiy 合 作 基 
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:)。 两 个 数据 集合 之 间 的 关 


(1a) 

(1b) 
2) 

G3) 


其 中 ， 根 据 本 文 提出 算法 的 目的 利用 公式 (la 和 公式 (lb) 对 
Sig 和 Sylgz 之 间 的 关系 进行 表示 。 公 式 (1a) 中 的 数据 集合 


关系 表示 本 文 提 出 的 算法 可 
表示 本 文 提出 的 算法 可 以 用 了 


者 关 别 。 


分 为 两 个 子 集 合 ， 此 时 ， 两 个 子 集 合 中 含有 一 些 公 | 


以 用 于 增强 DNN 的 精度 , 公式 (1b) 
F 向 当前 存在 的 网 络 中 添加 数据 或 


图 6 中 给 出 了 本 文 提出 算法 的 流程 图 。 首 先 ， 将 Syjg 划 


后 ， 利 ) 


训练 。 每 个 DNN 都 


数据 。 然 


] 这 两 个 子 集合 对 应 的 DNN 分 别 对 这 两 个 子 集 合 进 行 
有 相同 的 网 络 结构 , 但 是 , 网 络 


的 权重 和 


偏差 却 不 同 , 这 是 因为 其 采用 


了 不 同 的 训练 数据 集合 进行 训练 。 
因此 ， 本 文 将 这 些 网 络 表示 为 网 络 * 和 网 络 2 ,其 中 下 标 用 于 


对 网 络 进行 区 分 。 在 第 二 阶段 ， 利 用 GA 将 两 个 训练 所 得 的 网 


络 进行 合 
权重 和 偏差 。 


， 提 出 的 算法 利用 网 络 中 


已 经 存在 的 训练 信息 ， 即 
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图 6 提出 的 合并 算法 的 流程 图 


3.2 重新 训练 方法 


流程 中 


本 文 提出 的 算法 中 也 斌 


采 
在 DNN 中 将 集合 


用 新 的 重新 训练 方法 。 在 重新 训练 
| 练 ! 训练 成 网 络 ?， 其 中 含有 权 


重 和 矩阵 和 偏差 向 量 。 在 合并 阶段 将 这 个 网 络 信息 作为 染色 体 ， 


不 需要 进行 任何 的 修改 。 


此 ， 在 合 


并 阶段 之 前 需要 完成 的 仅 


是 利用 DNN 对 一 个 附加 数据 进行 训练 。 
将 每 个 子 集合 训练 的 权重 和 偏差 


作为 DNN 的 输入 数据 ， 


在 合并 阶段 作为 染色 体 。 此 外 ， 在 这 个 阶段 发 生 了 交叉 和 变 
异 。 在 交叉 过 程 中 将 权重 和 偏差 作为 染色 体 ， 利 用 每 层 之 间 的 


个 矩阵 进行 表示 。 和 矩阵 的 第 一 列 对 应 于 偏差 向 量 ， 其 它 列 构 
成 的 矩阵 对 应 权重 矩阵 ， 因 此 ， 较 低层 神经 元 和 较 高 层 神经 元 
之 间 的 偏差 和 权重 用 一 个 矩阵 行 表示 。 

在 先前 学 者 的 研究 中 ， 甜 阵 元 素 对 应 于 特定 的 染色 体 ， 然 
而 ， 这 种 对 应 关系 并 不 恰当 。 利 用 一 个 滤波 器 图 像 表示 权重 算 
阵 的 一 行 , 因此 , 每 个 矩阵 行 都 应 该 当 作 一 个 染色 体 。 网 络 中 
染色 体 的 选取 参考 图 7。 确 定 完 染色 体 的 类 型 之 后 ， 需 要 进行 
交叉 操作 。 在 各 种 交叉 方法 中 ， 本 文采 用 均匀 交叉 算 子 ， 这 是 
因为 这 种 交叉 算 子 适用 于 对 复杂 的 染色 体 进行 交叉 。 


图 7 网 络 中 染色 体 的 选取 
在 这 种 算法 中 ， 随 机 应 用 显 性 特性 和 隐 性 特性 。 在 部 分 区 
域 或 者 整个 区 域 中 可 以 执行 一 次 或 者 多 次 交叉 操作 ， 在 本 文 的 
研究 中 ， 交 叉 操 作 仅 在 每 个 后 代 上 执行 一 次 ， 通 过 手动 调整 交 
又 率 。 重 新 训练 方法 的 流程 图 如 图 8 所 示 。 
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预 训练 
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和 迭代 M 代 
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利用 BP 算法 和 测试 
结果 进行 微调 


测试 数据 集 S 测 二 


图 8 重新 训练 方法 的 流程 图 
第 二 阶段 结束 之 后 , 利用 验证 集合 记录 错误 (0-1 损失 ) 的 个 
数 进 而 完成 对 每 个 后 代 性 能 的 评估 。 如 果 
了 :R? 一 > {1,.…, 荆 } 表示 预测 函数 ， 那 么 这 个 损失 可 以 表示 
为 


|S 验 证 | 
= 17 


i=] 


(4) 


f Xi) Yi; 


201804.02364v1 


chinaXiv: 


录用 稿 


其 中 : DD 表示 输入 引 


表示 维度 万 第 7 个 


X 的 第 i 个 标签 。 


| 如 果 x 为 真 


储 度 的 个 数 ， 工 表示 标签 的 个 数 ，x, E R” 


数据 ，y, e {1,.…, 工 } 表示 分 配给 输入 信息 
指标 函数 了 和 了 可 以 定义 为 


0 ”否则 (5) 
f(x)=arg max, P(Y =k|x,Ner) 
个 神经 网 络 中 的 所 有 参数 , GA 的 主要 目的 是 


其 中 : Net 表示 
找到 
以 表示 为 


We 


g(xX)= Nert” 


使 得 0-1 损失 函数 最 小 的 Net”。 因 此 , GA 的 目标 函数 可 


u = arg min, lo (6) 


uy? 


对 后 代 评 估 结 束 之 后 ， 选 取 最 适合 的 两 个 后 代 ， 即 Nert” 


和 ANet”， 其 中 在 验证 测试 中 下 标 即 为 级 别 ， 在 合并 阶段 利用 


两 个 网 络 构 成 


= 


和 欠 代 M 代 之 后 
后 代 网 络 
特征 提取 器 。 


但 是 ， 


偏差 和 权重 矩阵 构成 ， 将 偏差 和 权重 矩阵 作为 显 性 


,最 后 选取 最 适合 的 后 代 NetY” (N < MI )。 


这 些 值 都 不 是 最 优 的 ， 因此， 需要 根据 BP 


对 其 进行 微调 ， 在 微调 过 程 中 还 需要 利用 Syyyg 数据 集合 。 


4 ”实验 和 结果 


本 章 将 会 介绍 两 个 不 同 的 实验 过 程 。 首 先 ， 将 提出 的 算法 
的 识别 精度 进行 了 对 比 。 根 据 隐藏 层 中 的 神经 


和 原始 的 DNN 
元 个 数 以 及 隐藏 层 


人 


了 标准 MNIST 数据 集 08， 


的 个 数 对 提出 算法 的 性 能 进行 研究 。 实 验 采 
这 个 集合 中 含有 60 000 幅 训 练 图 


像 和 10,000 幅 测试 图 像 。 其 中 GA 


的 参数 设 定 如 表 1 所 示 。 


表 1 GA 的 参数 设 定 


后 代 个 数 300 
交叉 率 0.7 
突变 概率 0.001 
代数 1000 
分 数 比 实验 1 0.5 
分 数 比 实验 2 第 一 代为 i 下 一 代为 
4.1 合并 算法 的 识别 精度 
为 了 对 提出 的 算法 和 初始 DNN 算法 的 性 能 进行 比较 ， 利 


混合 (MNIST) 数 


a 


采用 


法 时 , 将 所 


了 所 有 的 60 000 


居 库 进行 实验 。 为 了 训练 初始 的 DDN， 本 文 
训练 图 像 。 但 是 ， 当 采用 本 文 提 出 的 算 


的 MNIST 训练 图 像 划分 为 两 个 集合 , 即 Syyyg1 和 


9i 练 2 ， 每 个 集合 中 含 


30 000 


不 同 的 训练 图 像 ， 然 后， 从 


每 个 训练 集合 中 随机 提 
训练 图 像 添 加 到 其 
40 000 幅 训练 图 像 。 


000 几 


此 ， 要 从 60 000 幅 


图 9 中 给 出 


测试 曲线 结果 。 


了 实验 中 DNN 算法 和 本 文 提出 算法 的 训练 和 


取出 10 000 幅 训练 图 像 ， 将 提取 的 10 


他 训练 集合 中 ， 每 个 训练 集合 中 含有 
为 了 对 后 代 进行 验证 , 需要 使 用 Sysy。 因 


训练 图 像 中 随机 选取 出 6 000 幅 图 


必 
网 
地 
六 


I 
合并 算法 的 分 类 决策 方法 


迁 代 代 涩 


9 DNN 和 本 文 提出 的 合并 算法 的 训练 和 测试 曲线 结果 
如 图 9 所 示 ， 本 文 提出 的 算法 降低 的 错误 率 要 低 于 初始 版 


本 的 DNN 算法 ,提出 的 算法 设置 了 


比 RBM 算法 更 加 适当 的 初 


始 网 络 参数 ， 这 些 参 数 可 以 用 作 特 征 提 取 器 。 换 句 话说 ， 本 文 
能 。 


提出 的 算法 提高 了 预先 训练 的 性 
4.2 重新 训练 方法 的 性 能 


接 下 来 提出 算法 给 出 的 新 的 重新 训练 方法 的 性 能 进行 了 下 


究 。 假 设 MNIST 是 由 零 到 七 手写 数字 图 像 构 成 。 当 新 


个 


的 1 


类 别 数据 添加 到 初始 网 络 中 时 ， 初 始 版 本 的 DNN 应 该 预先 在 


所 有 训练 数据 的 基础 上 训练 RBM 。 


但 是 本 文 提 出 的 算法 在 添加 新 类 别 时 ， 


没有 在 所 有 的 训练 


数据 - 


的 偏差 和 权重 ， 然 后， 利用 
先 训练 之 后 ， 利 用 
在 合并 阶段 存在 一 个 限制 条 件 ， 


上 对 RBM 进行 预先 训练 ， 这 是 因为 本 文 提出 的 算法 采用 
了 网 络 的 偏差 和 权重 ， 这 些 信息 已 经 经 过 训练 。 利 ) 
的 算法 添加 新 类 别 的 过 程 如 下 文中 所 述 。 
DNN 对 新 类 别 的 训练 数据 进行 训 
通过 交叉 和 变异 操作 将 新 网 络 进行 合 并 。 采 用 GA 进行 预 
BP 算 子 0220 对 初始 化 后 的 网 络 进行 微调 。 


本 文 提出 
首先 ， 保 持 初始 网 络 


这 是 因为 两 个 网 络 的 结构 


不 相同 。 在 实验 过 程 中 为 了 解决 这 个 问题 ， 本 文 将 零 嵌 入 到 初 
台 网 络 顶 层 的 行 向 量 中 , 作为 添加 类 别 的 个 数 。 迭 代 M 代 之 后 ， 


执行 剩余 的 步 又， 如 先前 所 述 。 


为 了 对 提出 的 算法 性 能 进行 评估 ， 本 文 根 据 训练 图 像 的 数 


字 将 MNIST 数据 库 划分 为 两 个 部 分 。 训练 1 是 1 


零 到 七 的 训 


练 图 像 集合 构成 ，Syggz 是 由 八 和 九 两 个 训练 图 像 集合 构成 。 


此 外 ， 为 了 说 明 本 文 提出 的 算法 不 依赖 于 类 别 的 类 型 ， 
验 3 进行 0 和 1 的 添加 类 别 。 利 用 相应 
集合 进行 训练 ， 训 练 结束 之 后 ， 提 出 的 算法 利用 两 个 网 络 的 偏 


执行 实 
个 数据 


的 DNN 对 这 两 


差 和 权重 构成 新 网 络 , DNN 和 提出 上 


的 算法 的 所 有 参数 的 设 定 与 


实验 1 者 能 够 相似 ， 根 据 Si 站 | 和 Sygz 之 间 的 个 数 差异 设 定 


分 数 比比 例 。 在 实验 2 中 , 将 第 一 代 的 分 数 比 设 定 为 0.2, 剩余 
实验 2 中 DNN 和 
线 结果 如 图 


代 的 分 数 比 设 定 为 0.5。 
重新 训练 实验 的 训练 和 测试 


是 出 的 合并 算法 


10 所 示 。 可 以 看 到 


实验 2 中 的 结果 与 实验 1 中 的 结果 类 似 。 


录用 入 
达 代 代数 
图 10 DNN 和 本 文 提出 的 合并 算法 进行 重新 训练 实验 的 训练 和 
测试 曲线 结果 


实验 结果 表明 ， 本 文 提出 算法 的 初始 错误 率 要 低 于 初始 版 
本 的 DNN， 随 着 代数 的 增加 这 种 现象 依然 持续 。 因 此 ， 本 文 提 
出 的 算法 与 传统 的 DNN 算法 相 比 可 以 在 不 对 当前 数据 库 进 行 
RBMs 重新 训练 的 情况 下 以 较 低 错误 率 添 加 新 类 。 


5 ”结束 语 


本 文 提出 了 一 种 新 颖 的 用 于 深度 学 习 的 合并 算法 。 该 算法 
在 整个 训练 集合 上 对 特征 提取 器 进行 更 加 适当 的 组 合 ， 进 而 组 
合成 不 同 的 两 个 独立 网 络 ， 再 利用 DNN 对 两 个 独立 网 络 进行 
初始 化 ， 进 一 步 利用 GA 对 两 个 网 络 进行 合并 ;然后 将 网 络 的 


Ey 


有 差 和 权重 表示 为 每 层 网 络 间 的 一 个 矩阵 ; 最 后 , 利用 DNN 对 
网 络 的 偏差 和 权重 进行 训练 ， 并 在 合并 过 程 中 将 矩阵 中 的 每 一 
行当 作 一 个 染色 体 。 为 了 对 提出 的 算法 进行 评估 ， 本 文 执行 了 
两 种 类 型 的 实验 ， 通 过 实验 发 现 提出 的 算法 具有 比 DNN 更 低 
的 错误 率 。 

实验 过 程 中 的 交叉 和 突变 操作 增加 了 神经 元 节点 ， 这 样 可 
以 提高 了 识别 性 能 ， 并 且 弱 化 了 不 相关 和 相关 神经 元 节点 。 因 
此 ， 提 出 算法 的 错误 率 更 低 ， 网 络 性 能 更 优异 。 
在 本 文 的 研究 中 ， 试 图 利用 提出 的 算法 降低 初始 错误 率 并 
提高 网 络 性 能 。 此 外 ， 提 出 的 算法 还 给 出 一 种 新 的 重新 训练 附 
加 输出 类 的 方法 。 因 此 ， 本 文 提 出 的 算法 可 以 作为 一 个 基础 算 
行 网 络 分 配 ， 即 可 以 添加 数据 集合 或 者 数据 类 别 。 
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